Aprendizaje de políticas guiado por hitos para agentes de lenguaje de largo horizonte Optimiza agentes de lenguaje con aprendizaje guiado por hitos para tareas de largo horizonte. Mejora planificación y ejecución en entornos complejos. 2026-05-09 · 2 min